home *** CD-ROM | disk | FTP | other *** search
/ Power Programmierung / Power-Programmierung CD 2 (Tewi)(1994).iso / doc / mir / 04how < prev    next >
Text File  |  1992-06-29  |  14KB  |  278 lines

  1.  
  2.  
  3.         ═══════════════════════════════════════════════
  4.  
  5.             4.    HOW THE MIR PROJECT WORKS FOR YOU
  6.  
  7.         ═══════════════════════════════════════════════
  8.  
  9.  
  10.         ═══════════════════════════
  11. 4.1           "Free" software
  12.         ═══════════════════════════
  13.  
  14.             In the MIR project we are using the "copyleft" strategy
  15. of the Free Software Foundation.  The Foundation's GNU General
  16. Public License is included as Topic Five; it applies to all
  17. software created as part of the MIR project.  This software has
  18. been created specifically for this purpose by Marpex Inc. since
  19. March 1991.
  20.  
  21.             The Free Software Foundation
  22.  
  23.                 "is dedicated to eliminating restrictions on
  24.                 copying, redistribution, understanding, and
  25.                 modification of computer programs.  [They] do this
  26.                 by promoting the development and use of free
  27.                 software in all areas of computer use... 'Free'
  28.                 pertains to freedom, not to price...  You have two
  29.                 specific freedoms once you have the software: 
  30.                 first, the freedom to copy the program and give it
  31.                 away to your friends and co-workers; and second,
  32.                 the freedom to change the program as you wish, by
  33.                 having full access to source code.  Furthermore,
  34.                 you can study the source and learn how such
  35.                 programs are written.  You may then be able to
  36.                 port it, improve it, and share your changes with
  37.                 others."
  38.  
  39.             What is copyleft?
  40.  
  41.                 "The simplest way to make a program free is to put
  42.                 it in the public domain, uncopyrighted.  But this
  43.                 allows anyone to copyright and restrict its use
  44.                 against the author's wishes, thus denying others
  45.                 the right to access and freely redistribute it. 
  46.                 This completely perverts the original intent.
  47.  
  48.                 "To prevent this, we copyright our software in a
  49.                 novel manner.  Typical software companies use
  50.                 copyrights to take away your freedoms.  We use the
  51.                 copyleft to preserve them.  It is a legal
  52.                 instrument that requires those who pass on the
  53.                 program to include the rights to further
  54.                 redistribute it, and to see and change the code;
  55.                 the code and rights become legally inseparable."
  56.  
  57.             Quotes in the above three paragraphs are from page 3 of
  58. the January 1992 "GNU's Bulletin" semi-annual newsletter of the
  59. Free Software Foundation, 675 Mass Avenue, Cambridge, MA  02139
  60. USA.
  61.  
  62.             The argument for this strategy is set out nicely in an
  63. article "Programs to the People" in the February/March 1991 issue
  64. of the M.I.T. Technology Review.  With permission of the author,
  65. Simson L. Garfinkel, the text of the article is included in a
  66. separate file on the CD-ROM release.  The file is named "TOPEOPLE".
  67.  
  68.  
  69.         ════════════════════════════════════════════
  70. 4.2           Interactive shareware publishing
  71.         ════════════════════════════════════════════
  72.  
  73.             The Mass Indexing and Retrieval (MIR) project is
  74. releasing five sets of shareware tutorials.  Shareware has three
  75. advantages for the user:
  76.  
  77.         »   easier access through broad exposure on electronic
  78.             bulletin boards and copying for friends;
  79.  
  80.         »   opportunity to review tutorials prior to making a
  81.             commitment... minumum risk and no surprises;
  82.  
  83.         »   much lower prices since normal marketing costs are
  84.             bypassed.
  85.  
  86.             Seed funding for the MIR project was provided by the
  87. Canadian government with the understanding that the underlying
  88. indexing and retrieval techniques developed in the project shall be
  89. made broadly available under copyleft rules.  Personnel from two
  90. companies are carrying out the project.
  91.  
  92.             Innotech Inc. of North York, Ontario (416 492-3838)
  93. aims toward excellence in CD-ROM publishing services.  It is
  94. developing interfaces and applications based on MIR technology. 
  95. Innotech offers consulting services as well as service bureau
  96. processing in CD-ROM publishing.
  97.  
  98.             Marpex Inc. is a firm founded in 1976 by the author of
  99. the tutorials and the related software.  Marpex developed the
  100. techniques and pilot programs for the pioneering FindIT CD-ROM
  101. system, and more recently collaborated in the design of the Discis
  102. Knowledge Research CD-ROM books.  Marpex provides consulting in
  103. records management, and seminars related to the techniques in the
  104. MIR tutorials.
  105.  
  106.             MIR tutorials are designed to be an exercise in
  107. co-operative development.   We hope to engage you, the readers and
  108. users, in the project.  We know that co-operative development will
  109. lead to improved end results; many minds are better than one.  Text
  110. and software is modified according to your input... clarifications,
  111. improved methods, more powerful source code, etc.  Each tutorial
  112. will evolve to reflect significant improvements, with your name
  113. attached to the improvements you provide.
  114.  
  115.             After the interactive phase is over, Marpex hopes to
  116. compile a reference text based on the tutorials.  This will be
  117. accompanied by a CD-ROM containing all software and support files. 
  118. Since ISO 9660 CD-ROMs are operating system independent, your
  119. ported versions of programs can be included.
  120.  
  121.             Why not release everything at once?  Reasons for
  122. progressive releases are:
  123.  
  124.         »   Scope of the project:  Look at the tables of contents. 
  125.             There is simply too much for one tutor to complete in
  126.             a single step.  Extensive new research is continuing to
  127.             be carried out, particularly in concept recognition. 
  128.             Apart from standardized functions, we are not carrying
  129.             forward source code used in any proprietary system. 
  130.             Much of this work in the past has been on UNIX
  131.             workstations; now we are achieving levels of efficiency
  132.             that can make preparation of large databases feasible
  133.             on a personal computer.
  134.  
  135.         »   Market readiness:  Until the introduction and Tutorial
  136.             ONE have been on the market for a few months, we do not
  137.             know if our target groups are sufficiently interested. 
  138.             We want to know that our work is meeting a genuine need
  139.             and that co-operative development under shareware and
  140.             "copyleft"  rules is viable.
  141.  
  142.         »   Financing:  The Canadian government provided seed
  143.             funding, that is, enough to get the project off to a
  144.             good start.  We are using the same approach as the Free
  145.             Software Foundation to provide the money required to
  146.             carry the project forward.  Their major financing is
  147.             through distribution of tapes containing their work -
  148.             at roughly $200 for each of several tapes.  We aim to
  149.             carry forward the MIR project through distribution and
  150.             shareware registrations.  People are free to make
  151.             copies of all materials.  We trust that buyers will
  152.             honor the shareware provisions for the tutorials.
  153.  
  154.  
  155.         ═════════════════════════════════════════
  156. 4.3           Engine-independent techniques
  157.         ═════════════════════════════════════════
  158.  
  159.             The ISO 9660 CD-ROM standard and Microsoft's MS-DOS
  160. extensions opened the way to accessing the files on any conforming
  161. CD-ROM.  But having access to files is not the same as being able
  162. to search conveniently.  Because indexing systems and interfaces
  163. are proprietary, the user has been faced with the nightmare of
  164. having to learn a new retrieval method every time a CD-ROM title is
  165. purchased from a new vendor.  The plea goes up:  "Why can't I use
  166. the same program I've already learned?"
  167.  
  168.             Why not, indeed?
  169.  
  170.             Two ideas have emerged in the literature.  One is full
  171. "interoperability"...  the ability for a person to select her/his
  172. own preferred retrieval interface software and use it to search
  173. within any CD-ROM title on any CD-ROM drive under any operating
  174. system.   That's far off yet.  The second idea, a subset of the
  175. first, is now before a Standards Committee (SCAD) of the
  176. International Standards Organization (ISO) and may show up in
  177. commercial products in 1993.  That is the possibility of separating
  178. the software into a client interface and an underlying server which
  179. fetches data from the CD-ROM.  The server module resides in RAM and
  180. communicates with the client interface through standardized ASCII
  181. strings.  The intention is that the server is specific to the data
  182. and the indexes in place; the client interface is the user's
  183. preference of any retrieval software conforming to the standard.
  184.  
  185.             These engine-independent techniques do away with the
  186. high cost and inconvenience of re-education.  There are perhaps
  187. five contending proposed standards.  The Information Handling
  188. Committee of the Intelligence Community Staff in Washington, D.C.
  189. has commissioned the CD-ROM Read-Only Data Exchange Standard (CD-
  190. RDx).  The aircraft industry appears seriously committed to
  191. Structured Full-Text Query Language (SFQL), an extension of the ISO
  192. approved SQL.  Other contenders are V39.50 (a library system
  193. networking protocol), Silver Platter's DXS, and DFL, an earlier
  194. outgrowth of Standardized Query Language.  Unknowns at this point
  195. include the data structures supported (whether columnar relational
  196. databases and subsets thereof, or whether more generalized forms),
  197. and the actual syntax of messages that pass between the interface
  198. and server modules.
  199.  
  200.             We believe that cooperative development through the MIR
  201. project can contribute to this process.  If software is freely
  202. available under copyleft rules, it can be adapted very readily as
  203. standards evolve.  No-one has to hold back until the Standards
  204. Committee makes its one year or three year or five year report.
  205.  
  206.             We also believe that it is unnecessary to limit the
  207. discussion to CD-ROM.  The basic problem (frustration at being
  208. forced to learn new interfaces) is independent of the medium on
  209. which the data are stored.  MIR technology may be applied to data
  210. held on hard disk, floppy diskettes, Write Once Read Many (WORM),
  211. Bernoulli, rewritable laser optical disks, laser cards or whatever
  212. other media can retain data as byte streams.
  213.  
  214.  
  215.         ═════════════════════════════════
  216. 4.4           The software provided
  217.         ═════════════════════════════════
  218.  
  219.             Scope:  The source code for data analysis and
  220. preparation, search term selection, and to some extent automated
  221. indexing require little interaction with a user.  The programs in
  222. TUTORIALS ONE through THREE are therefore considered complete.
  223.  
  224.             TUTORIAL FOUR presents an engine (a "data server
  225. module") which may be used with interfaces compatible with engine-
  226. independent techniques.  The number of different interfaces that
  227. might be written is infinite.  Interface source code can be (and is
  228. likely to be) handled in traditional proprietary ways, simply
  229. because of the great variability in features that end users desire. 
  230. You or your firm may write a "client module" interface and keep it
  231. proprietary, provided the data server module is kept separate and
  232. under copyleft rules.  If you care to write a client module under
  233. copyleft rules, and if it works well, we will be glad to pass it
  234. along.
  235.  
  236.             The software provided with TUTORIAL FIVE might be
  237. classed as "discussion starters".  We carry the discussion a fair
  238. distance, but look to readers to pursue their specific interests. 
  239. In an ideal world, that pursuit would take the form of a public
  240. exchange of ideas under copyleft rules.  As Captain Jean-Luc Picard
  241. would say, "Make it so!"
  242.  
  243.             Naming conventions are applied to many of the programs. 
  244. DOS constrains source code names to eight characters plus a ".C"
  245. extension.  Where a six letter name is workable, a single letter
  246. followed by an underscore precedes the name and has one of the
  247. following meanings:
  248.  
  249.                     A_*.C    analyze, report
  250.                     B_*.C    build indexes
  251.                     C_*.C    compress / integerize data
  252.                     E_*.C    expand content of a file
  253.                     F_*.C    filter out parts of a file
  254.                     I_*.C    invert token matrix
  255.                     J_*.C    join words into useful phrases
  256.                     M_*.C    merge files
  257.                     P_*.C    preprocess particular layouts
  258.                     Q_*.C    quality assurance
  259.                     R_*.C    rotate content within a line
  260.                     S_*.C    server module for retrieval
  261.                     T_*.C    transliterate language to ASCII
  262.  
  263.             Support files include 05LICENS, OVERVIEW, COPYRIGH,
  264. FRONTISn, NEWSREL and ORDER.  On the diskette version, the install
  265. program gives you a choice of whether to extract the files in
  266. WordPerfect 5.1, ASCII, or a generic form suitable for other word
  267. processors which can handle ASCII files.  05LICENS is the Free
  268. Software Foundation's GNU General Public License which governs
  269. permissions for software supplied with the tutorials.  CD-ROM
  270. release(s) contain extra worked examples, and articles such as
  271. TOPEOPLE.
  272.  
  273.             We recommend you place executable copies of all
  274. programs in one area on your hard disk.  That way, you can create
  275. easy access to the programs with only one small addition to your
  276. DOS path (something of the form "\C:\BIN;" added to the PATH line
  277. in your AUTOEXEC.BAT file).
  278.